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У статті представлено систему оцінки якості обробки складних даних біологічної природи з 
використанням критерію ентропії Шеннона. Проведено порівняльний аналіз різних методів розрахунку 
ентропії Шеннона при використанні модельного сигналу при різних рівнях відношення сигнал-шум. 
Запропоновано багатокроковий алгоритм обробки даних ДНК мікрочіпів для визначення експресій генів, 
у якому оцінка якості обробки на кожному етапі здійснюється на основі середнього значення ентропії 
Шеннона для усіх об'єктів бази даних. 
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Вступ 

На сучасному етапі одним із актуальних напрямків дбіоінформатики є 
ідентифікація стану біологічних об'єктів шляхом аналізу експресій генів. Даний 
напрямок пов'язаний зі створенням генних регулюючих мереж, які спрямовані на 
визначення стану біологічного об'єкта та прогнозування зміни стану з урахуванням 
характеру взаємодії генів, що характеризують даний об'єкт. На даний час найбільш 
розповсюдженими є наступні технології визначення експресій генів: технологія 
мікрочіпів ДНК та технологія секвенування РНК. Кожна з цих технологій має свої 
недоліки та переваги. Технологія ДНК мікрочіпів є суттєво дешевшою, але отримані 
вектори експресій генів мають значну шумову складову, що обумовлена процесом 
створення мікрочіпів та зчитування з них інформації. Технологія секвенування РНК 
дозволяє отримати вектори експресій генів зі значно меншим відношенням шум- 
сигнал, але вартість цієї технології значно більша порівняно з вартістю технології ДНК 
мікрочіпів. Але, у будь якому випадку, отримані вектори експресій генів містять специ- 
фічну шумову складову, що обумовлена різноманітним характером протікання біоло- 
гічних процесів в організмі, які не пов'язані з хворобою, що ідентифікується. Особли- 
вістю біологічних даних, що отримані шляхом ДНК мікрочіпів або секвенуванням РНК, 
є також велика розмірність простору ознак, що ускладнює процес обробки інформації. 
Тому, одним із актуальних напрямків підвищення об'єктивності прогнозування стану 
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біологічного об'єкту на основі аналізу експресій генів є створення систем фільтрації 
даних на попередньому етапі обробки інформації на основі використання сучасних 
критеріїв оцінки якості даних, одним з яких є критерій ентропії Шеннона. 

Постановка проблеми 

Структурну схему процесу отримання матриці експресій генів шляхом технології 
ДНК мікрочіпів представлено на рис. 1. 
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Рис. 1. Структурна схема процесу отримання матриці експресій генів 


Як видно з рис. І, процес трансформації зображення мікрочіпу, яке отримане 
шляхом лазерного сканування, у матрицю експресій генів складається з чотирьох 
етапів: фонової корекції, нормалізації даних мікрочіпу, РМ корекції та сумаризації. 
Фонова корекція спрямована на зменшення шуму, що виникає внаслідок процесу 
сканування мікрочіпу, процес нормалізації дозволяє порівнювати дані, що отримані з 
різних мікрочіпів при різних умовах проведення експерименту. РМ корекція сприяє 
зменшенню ефекту неспецифічної гібридизації за рахунок урахування ММ-проб. На 
етапі сумаризації визначається експресія відповідного гену шляхом зваженого 
додавання інтенсивностей світла різних проб, що відповідають даному гену. Кожний 
етап передбачає використання різних методів, які здійснюють безпосередній вплив на 
інформативність експресій генів мікрочіпу. Для вибору оптимальної комбінації методів 
отримання матриці експресій генів необхідне проведення порівняльного аналізу 
ефективності використання різних комбінацій методів на основі кількісних критеріїв 
оцінки якості обробки даних. У даній роботі за такий критерій взято ентропію 
Шеннона, яка визначає кількісну міру невизначеності відповідного стану системи | 1,21: 


Не-,р, ов, р, (1), 
і-1 


М, А АН ето : з ної 
де р; бог - є Ймовірність реалізації і-го стану, М - об'єм вибірки (кількість 


станів системи), а М, - частота повторювання /-го стану. При цьому, якщо п - число 


рівнів дискретизації стану системи, то 
п п 
Мо М он 
і-1 ізі 


Слід зазначити, що формула (1) є узагальненою. Її конкретне використання 
визначається параметром р;, тобто визначенням простору станів та способом реалізації 
конкретного стану. 

Аналіз останніх досліджень і публікацій 

Сьогодні існує велика кількість практичних галузей, де використовуються 
ентропійні критерії (3-51. Термін ентропія (грець. еупгороу- перетворення) уперше ввів 
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німецький фізик Клаузіус у 1865 році, як міру перетворення теплової енергії у 
механічну та навпаки. Зв'язок ентропії з інформацією уперше побачив у 1957 році Л. 
Больцман. Він характеризував ентропію як міру недостатньої інформації про стан 
системи. Подальші кроки у напрямку розвитку поняття ентропії пов'язані з таким 
вченими як Гіббс |6), Хартлі |7), Шеннон |1|, Колмогоров (31, Реньт |91, Тсаллес (10) та 
фон Нейман (11). Кількісну адитивну міру для інформації уперше запропонував у 1928 
році Хартлі. Згідно з теоремою Хартлі, для знаходження елементу х, який входить до 
складу множини, що складається з М елементів, необхідна кількість інформації: 

Н -іов, М. (2) 

У загальному випадку М можна вважати кількістю рівноймовірних виходів або 
статистичною вагою, а Н - кількістю інформації для реалізації і-го виходу. Шеннон 
узагальнив формулу Хартлі щодо випадку систем з нерівноймовірнісними станами. У 
П12| автори представили методику покрокової обробки хроматограм мас спектру 
наркотичних речовин на основі комплексного використання вейвлет-аналізу та 
ентропійних критеріїв. Оптимізацію процесу вибору типу вейвлету, рівню вейвлет- 
декомпозиції, значення трешолдингового коефіцієнту було виконано з використанням 
ентропій Шеннона та логарифму енергії сигналу. Оптимальний рівень вейвлет- 
фільтрації було обрано на основі екстремумів відповідних критеріїв. У (13) автором 
використано поняття ентропійних потенціалів для дослідження різних систем та 
процесів. Однак, слід зазначити, що, незважаючи на значні успіхи у даний предметній 
галузі, проблема критеріальної оптимізації вибору методів та засобів обробки складної 
інформації на даний час не має однозначного рішення. 

До невирішеної частини загальної проблеми слід віднести відсутність загальної 
технології побудови системи попередньої обробки складних даних біологічної природи 
з метою зменшення шумової складової та розмірності простору ознак, які 
характеризують об'єкти, що досліджуються, на основі кількісних критеріїв оцінки 
якості обробки інформації. 

Метою роботи є проведення досліджень щодо використання критеріїв ентропії 
Шеннона для оцінки інформативності даних мікрочіпових експериментів на різних 
етапах обробки інформації та розробки покрокового алгоритму визначення 
оптимальної комбінації методів обробки даних, що відповідає максимальній 
інформативності векторів експресій генів об'єктів, що досліджуються. 

Виклад основного матеріалу 

Усі методи оцінки ентропії Шеннона можна розділити на дві групи. До першої 
групи відносяться методи, що засновані на частотах реалізації тієї або іншої події. 
Згідно з методами другої групи, ентропія розраховується безпосередньо з сигналу без 
використання вектору частот виникнення відповідних подій. Структурну блок-схему 
різних методів розрахунку ентропії Шеннона представлено на рис. 2. Відповідно до 
принципу максимуму ентропії, більш високій ступені упорядкованості інформації, що 
характеризує об'єкт, відповідає менше значення ентропії Шеннона 1 навпаки, шумова 
компонента сигналу має максимальне значення ентропії. При цьому, значення ентропії 
Шеннона не повинно змінюватися при різних амплітудах шумової компоненти за 
умови незмінного характеру шуму. 
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Методи оцінки ентропії Шеннона 
Максимальної Скоригований Байєса 
правдоподібності максимальної 


авдоподібності 


Джефрейса Лапласа Мінімакса 


Рис. 2. Структурна блок-схема методів оцінки ентропії Шеннона 


Джеймса-Стейна 


Для дослідження якості різних методів оцінки ентропії Шеннона було згенеро- 
вано дві групи сигналів. Перша група містила випадкові сигнали при рівні диск ре- 
тизації 6000 та різних рівнях амплітуд шумової компоненти. Амплітуда шуму зміню- 
валась від 0,1 до 0,9 умовних одиниць з кроком 0,1. Друга група сигналів відрізнялась 
від першої значенням амплітуди. Амплітуда шуму сигналів даної групи змінювалась 
від 50 до 450 умовних одиниць з кроком 50. На рис. 3 та 4 показано графіки зміни 
значень ентропій Шеннона при різних рівнях шумової компоненти при використанні 
наведених вище методів розрахунку ентропії. Аналіз характеру зміни значення 
ентропій при різних рівнях шумової компоненти дозволяє зробити висновок, що при 
високому рівні шуму значення усіх ентропій лежать у достатньо вузькому діапазоні, а 
їхню зміну можна пояснити випадковістю сигналу, що досліджується. Вибір критерію 
розрахунку ентропії Шеннона у цьому випадку не має особливого значення. Інший 
висновок випливає з аналізу характеру зміні ентропій при низькому рівні шумової 
компоненти. У даному випадку спостерігається функціональна залежність ентропій 
Шеннона, що розраховані за методами ММ, Сбао-5Беп, УеНтеує, ІП аріасе, від рівня 
шумової компоненти. При зростанні амплітуди шуму дані ентропії зменшувались у 
більшій або меншій мірі. Спостерігалась хаотична зміна ентропій МІ, РегКза та 
МіпіМаха в досить вузькому діапазоні, що можна пояснити хаотичністю сигналів, що 
досліджуються. Однак, найвищу стійкість до зміни амплітуди шуму при малих 
значеннях шумової компоненти показав критерій ентропії, що визначений за методом 
Уатез8-Уеїп(Татез-У5їеїп 5ргіпКаєе езітаюог). Значення даного критерію не змінювалось 
протягом зміни амплітуди шуму у заданому діапазоні. 
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Рис. 3. Графіки ентропій Шеннона при зміні амплітуди шумової компоненти від 
0,1 до 0,9 умовних одиниць 


10 о С.А.Бабічев, В.І.Литвиненко, М.А.Таїф, А.О.Фефелов 


155. 1561-5359. Штучний інтелект, 2016, Х» 2 


м. 
мм 
о 
о . зебтеуз 
о 
. Шаріасе 
Регка 
5 м 
- Стас-блеп 


іміпік 


зпаппоп ептгору 
8.53 


5 : ееее рука У пану 
2 вет Зчрн  ; 
о 
о 
Р; 
о 100 200 300 400 
Моі5е Іеуеї 


Рис. 4. Графіки ентропій Шеннона при зміні амплітуди шумової компоненти від 
50 до 450 умовних одиниць 


Оцінку характеру зміни ентропій Шеннона від ступеню  зашумленості 
біологічного сигналу визначимо з використанням даних експресій генів, отриманих 
шляхом аналізу даних мікрочіпів ДНК хворих на рак легенів СЕОР-68571 бази даних 
Аттау Ехргез5 (141, яка включає в себе профілі експресій генів 95 пацієнтів, серед яких 
10 є здоровими, а 85 хворих пацієнтів розділені за рівнем розвитку хвороби на три 
групи: 23 пацієнти мають добрий стан, 41 пацієнт має помірний стан, а 21 пацієнт має 
поганий стан. Оригінальний сигнал одного з пацієнтів, який був використаний у 
дослідженнях як базовий, представлений на рис. 5. Даний сигнал являє собою вектор 
експресій генів клітин органу, що досліджується, при різних умовах визначення 
експресії. Далі на сигнал накладалася шумова компонента, амплітуда якої змінювалася 
від 20 до 160 з кроком 20. Даний вибір визначався значеннями експресій генів даних, 
що досліджуються. Амплітуда шумової компоненти у цьому випадку у багато разів 
менша за середній рівень експресії генів. На рис. 6 представлений графік зміни 
ентропій Шеннона при різній мірі зашумленості даних експресій генів. 
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Рис. 5. Оригінальний сигнал експресій генів біологічного об'єкту за різних умов 
визначення експресії 
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Рис. 6. Графік зміни ентропій Шеннона при різних рівнях зашумленості даних 
експресій генів 


Аналіз графіку підтверджує припущення, що в процесі видалення «білого шуму» 
ентропія даних експресій генів буде зменшуватись, при цьому значення усіх ентропій 
змінюється монотонно та погоджено. Аналіз результатів моделювання показує, що для 
грубої оцінки інформативності біологічного сигналу усі методи оцінки ентропії 
Шеннона дають аналогічні результати, але для оцінки ентропії шумової компоненти, у 
процесі її видалення, в системах тонкої очистки метод Джеймса та Стейна (ате8-5еїп 
5ргіпКаєе е5ітаїог) має перевагу над іншими методами за рахунок стійкості до зміни 
амплітуди шуму. 

Алгоритм обробки даних мікрочіпів ДНК, з метою підвищення якості процесу 
визначення експресій генів відповідних об'єктів, представлений на рис. 7. Як критерій 
об'єктивності, використано середнє значення ентропії Шеннона, що розраховане, з 
використанням методу Джеймса та Стейна, для усіх мікрочіпів, що досліджуються. 
Реалізація даного алгоритму передбачає наступні етапи: 

Крок 1. Завантаження даних ДНК мікрочіпів у систему обробки інформації. 

Крок 2. Завдання етапу обробки даних. Довільна фіксація методів, що не 
відповідають даному етапу. 

Крок 3. Завдання методу обробки даних, що відповідає вибраному етапу. 
Обробка даних ДНК мікрочіпів даною комбінацією методів. 

Крок 4. Розрахунок ентропії Шеннона для векторів експресій генів, що 
відповідають кожному мікрочіпу, що досліджується. Розрахунок середнього значення 
ентропії Шеннона для усіх ДНК мікрочіпів. 

Крок 5. Якщо порядковий номер методу менший за загальну кількість методів, що 
відповідають даному етапу, перехід на крок 3. В іншому випадку, вибір та фіксація 
методу, що відповідає мінімуму середнього значення ентропії Шеннона для усіх 
масивів даних, що досліджуються. 

Крок 6. Якщо порядковий номер етапу менший за максимальну кількість етапів 
обробки даних, перехід на крок 2. У іншому випадку фіксація остаточного рішення по 
вибору оптимальної комбінації методів обробки даних для визначення експресій генів 
мікрочіпів ДНК. 
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Рис. 7. Алгоритм передобробки даних ДНК мікрочіпів для визначення експресій 
генів 


Моделювання процесу отримання матриці експресій генів з використанням 
запропонованого алгоритму було проведено з використанням пакету Віосопадйсіог 
програмного середовища В. На рис. За показано діаграму розподілу середнього 
значення ентропії Шеннона для оригінального зображення та зображень з фоновою 
корекцією методами «гпта», «та85» та «ДБЕСМ» відповідно. Метод «ІдеаїМізтаїсі» не 
використовувався через гіршу якість його роботи (за результатами досліджень компанії 
АЙутеїтіх) (15). 

Аналіз діаграми дозволяє зробити припущення про доцільність використання для 
даних типів зображень «гта» методу фонової корекції, оскільки значення ентропії 
Шеннона для об'єктів, що досліджуються, є найменшими порівняно зі значеннями, 
отриманими при використанні інших методів фонової корекції. Цей факт свідчить про 
більш високу інформативність даних, отриманих шляхом фонової корекції «пта» 
методом. 
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Рис. 8. Діаграми розподілу значень ентропії Шеннона для різних методів 
обробки даних ДНК мікрочіпів: а) методи фонової корекції; Б) методи нормалізації; с) 
методи РМ корекції; 4) методи сумаризації 


На рис. 3Ь показані аналогічні діаграми при використанні різних методів 
нормалізації даних. При цьому, в усіх випадках фонову корекцію було виконано «гпта» 
методом, а РМ корекцію та сумаризацію - «пла8» та «14-У/опе» методами відповідно. 
Аналіз діаграм дозволяє зробити висновок, що, з точки зору ентропії Шеннона, 
найкращим методом для нормалізації даних мікрочіпів є квантильна нормалізація, 
оскільки середнє значення ентропії при використанні даного методу є також 
мінімальним. Діаграми розподілу значень ентропії Шеннона при використанні різних 
методів РМ корекції та сумаризації (рис. 1) представлені на рис. Зс та 84 відповідно. 
Аналіз діаграм на рис. Зс свідчить про доцільність використання «пла5» методу РМ 
корекції даних мікрочіпів. Середнє значення ентропії для усіх об'єктів бази даних при 
використанні даного методу є найменшим. Результати, що представлені на рис. 34 
свідчать про доцільність використання «та58» методу для сумаризації інтенсивностей 
світла проб відповідного гену. Ентропія експресій генів, які характеризують стан 
відповідного об'єкту, у цьому випадку є мінімальною, що свідчить про більш високу 
інформативність векторів експресій генів об'єктів, що досліджуються. 

На рис. 9 показано діаграми розмаху інтенсивностей світла первинних 
необроблених даних мікрочіпів (рис. Фа) та експресій генів, отриманих шляхом фонової 
корекції «тпта» методом, квантильної нормалізації, РМ корекції та сумаризації «тає» 
методами (рис. 9Б). 

Аналіз діаграм підтверджує високу ефективність використання даної комбінації 
методів. Медіани векторів експресій генів, що відповідають різним мікрочіпам, лежать 
у дуже вузькому діапазоні (8,24-8,72), при цьому розподіл квантилів відповідних даних 
дозволяє проводити якісний порівняльний аналіз мікрочіпів, що відповідають різним 
об'єктам бази даних, що досліджується. 
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Рис. 9. Діаграми розмаху: а) інтенсивностей світла первинних необроблених 
даних; Б) експресій генів оброблених даних 


Висновки 

Результати моделювання, що представлені у роботі, підтверджують ефективність 
використання критеріїв ентропії Шеннона для оцінки якості обробки біологічних даних 
складної природи. Порівняльний аналіз різних методів розрахунку ентропії Шеннона 
показав, що для грубої оцінки інформативності даних, що обробляються, усі методи 
дають аналогічні результати, але на рівні тонкої фільтрації оцінка характеру шумової 
компоненти, з використанням різних методів розрахунку ентропії Шеннона, є різною. 
Найбільш стійким до амплітуди шуму при незмінному характері сигналу є метод 
Джеймса та Стейна (Лагте8-5їсїп 5ргіпКаєє е5ітаїог). Значення даного критерію не 
змінювалось при зміні амплітуди шуму у рамках заданого діапазону. Це дає можливість 
створення багатокрокової системи фільтрації складних даних на основі сучасних 
методів обробки інформації. 

У роботі запропоновано алгоритм обробки даних мікрочіпових експериментів для 
визначення експресій генів об'єктів, що досліджуються. Запропоновано алгоритм 
визначення оптимальної комбінації методів, які дозволяють отримати вектори експресії 
генів з більш високою інформативністю, що сприяє підвищенню об'єктивності 
подальшої ідентифікації об'єктів. Як критерій оцінки якості обробки даних, було 
використано середнє значення ентропії Шеннона для усіх векторів експресій генів, яке 
розраховувалося за методом Джеймса та Стейна. Порівняльний аналіз діаграм розмаху 
оброблених та необроблених даних підтверджує ефективність запропонованої 
методики. Перспективами подальших досліджень авторів є створення системи 
фільтрації «білого шуму» та системи редукції простору ознак складних даних 
біологічної природи на основи критеріїв ентропії Шеннона. 
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ВЕ5ОМЕ 

5.А. Вабіспеу, У.І. ГукуупепКо, М.А. Таїї, А.О. Кеїеіоу 

Тре езіітабйоп ойШе сотріех Біоіоріса! Чака ргосез5іпе Баз5ед оп Ше епігору сгіїегіа 

Тре рарег рге5епі5 їБе 5у5іет 10 е5ітаїе їБе согпріех Біоіоріса! Чаїа дшайу 
ргосезвіпє Бу Ме 5раппоп епігору сгіїегіа ц5е. А5 фе теїподз іо саїсиіаїе Ше 5раппоп 
епітору сгіїегіоп ууеге цєед РоПомує: плахітит ПКеПпооа, сотесісд птахітит ПКепрооа, 
Срао апа 5Преп, Уатез-З51ївїп 5бгіпКаєє е5ітаїог, УеНтеуб, І аріасе, Регк5 апа тіпітах. Тре 
сотраге апаЇузіє ої Ше уагіоця пешодз ої Ше 5Праппоп епітору саїсиіайоп бу Ше ц5е ої Ше 
тоадєі 5ієпаї5 улїіб дібегепі Ісусі5 ої поі5е-о-5ієпаї гайо ууеге саггісед оці дигіпє Ше 
зітиіайоп ргосе858. ТРре гезиіїв ої Пе 5ітиіайоп ргосе85 5Поуу Фаї їБе Бебі сгіїегіоп іп іегт5 
ої іпферепдепсе оп Пе Ісусі ої "ме" поїзе 15 Ше Татез-Уїеїп 5ргіпКаєе е5ітаїог, Бесац5е 
Бе уаїце ої Фіз сгікегіоп до пої сбапєе дигіпе поїзе Ісус! гаї5е. ТПе Чаїа ої Фе БіоЇорбіса! 
обіесі депе ехрге55і0п м/еге ц5ед ї0 еуаїшаїе Ше срапее ої ре 5Баппоп епігору сгіїегіоп 
уег5и5 їре Іеусі5 ої поізе-і0-5іспа! гайо їог согаріех паїиге Чаїа. ТРе апаїубіє ої Ше 
зитиїайоп гезиія 5рпомує Баг ай пефодз ої їде 5Баппоп епігору ебійтайоп єїуе Ше зате 
тезиіів Бог ргітагу гейпіпеє пе Біоіовіса! 8ієпа! іпбогтайоп, Бик бе Тате5-У5кеїп 5ргіпКаре 
е5ійтаог Ба5 Ше адуапіаєє 10 сотраге ур оїрег плеїродя іп са5е Ше ройпябіпе ої'Фе 8ієпаї. 
Тре рарег рге5епіз аї5о Юре пацій-яїер аїсогіййт ої ОМА тісгоатау ргосез5іпо уубеге Ше 
ебійтайоп ої їбе ргосезвіпє дцайку аг ре еаср 5кер 15 сагтіед оці Бу Бе ауегаре ої Ше 
УЗПпаплпоп епігору бог аї! обіесіє ої Фагабазе. Тре 5ітиіабоп ої Фе ргосез85 о обіаїп Ше бепе 
ехрге55іоп птаїгіх цзіпе їБе ргорозаї аїєогіїбт має саггіед оці Бу Фе ше ої расКабе 
"Віосопдйсіог" ої 58оїуаге В. ТРе адіїНегепі піефодо ої їБе Баскогоцпа согтесіїоп, 
погтайгайоп, РМ согтесйїоп апа 5ипатагігайоп угеге 5їшдїед дигіпе Ше 5ітиіайоп ргосе55. 
Тре ргебепіед іесрпоїобу аПому5 го спапєе ап орійта! єгопр ої плеїбодя 0 іпсгеазе Ше 
іобогтайуепез5 ої Бе обіаїпеай Чага. 
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